Java Quartz 作业持久化

hadoop - HDFS 中的文件大小应该是多少才能获得最佳 MapReduce 作业性能

我想将文本文件从外部源复制到HDFS。让我们假设我可以根据文件的大小合并和拆分文件，文本文件的大小应该是多少才能获得最佳的自定义MapReduce作业性能。大小重要吗？最佳答案 HDFS旨在支持非常大的文件而不是小文件。与HDFS兼容的应用程序是那些处理大型数据集的应用程序。这些应用程序只写入一次数据，但会读取一次或多次，并要求以流式传输速度满足这些读取。HDFS支持文件的一次写入多次读取语义。在HDFS架构中有一个block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时，它被分成64MB的b

MapReduce 该是 block 射器 section hadoop filesystems hdfs

c# - Hadoop/Spark 上 .NET 场景模拟(DAG 作业)的分布式计算

我目前正在研究一种使用Hadoop或Spark在集群上运行.NETDAG作业(场景模拟)的方法。在这两种情况下，我都遇到了有关代码语言的问题。如果发现Spark支持用以下语言编写的代码:Scala、Python、Java和R，但不支持.NET。Hadoop确实支持在.NET中编写作业，但是我没有在.NET上找到Hadoop的DAG实现。有没有办法使用.NET编程语言在集群/云上实现作业的DAG？最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过SparkCLR(https://github.com/Microso

c#Hadoop section Spark NET .net apache-spark directed-acyclic-graphs

hadoop - 如何列出特定用户运行的所有 hadoop 作业？

我试图找到一个命令，我可以用它来列出我当前正在运行的所有作业。“hadoopjob-list”列出所有作业。有没有办法按用户过滤列表？最佳答案您可以简单地使用用户名grep输出hadoopjob-list|grep 关于hadoop-如何列出特定用户运行的所有hadoop作业？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/12609267/

hadoop 如何 section stackoverflow

java - 在多个 map-reduce 作业之间传递数据库连接对象

从根本上说，这个问题是关于:同一个数据库连接是否可以跨多个进程使用(因为不同的map-reduce作业在真正不同的独立进程中)。我知道这是一个微不足道的问题，但如果有人也能回答这个问题那就太好了:如果与数据库的最大连接数(在托管数据库的服务器上预先配置)有筋疲力尽，一个新的进程试图建立一个新的连接？它是否等待一段时间，如果是，是否有办法为此等待时间设置超时。在这种特殊情况下，我是在谈论PostGres数据库，用于与数据库对话的语言是java。为了让您了解问题的背景，我有多个并行运行的map-reduce作业(大约40个reducer)，每个作业都想更新一个PostGres数据库。我如何

map-reduce 传递 section code noreferrer java database postgresql hadoop mapreduce

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

我想尝试在Windows上使用Hadoop。我已将WindowsAzureHDInsightPreview作为单个节点安装在我的Windows7笔记本电脑上。仪表板和节点已启动并正在运行，并且HDFS正在运行。但是，当我运行MapReduce作业时，它失败并显示错误消息“不是有效的Inet地址”:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted/FrunSamples.ps1w3csmalljavatotalhitsMovedtotrash:hdfs://localhost:8020/w3c/out12/12

时出 MapReduce java mapred hadoop windows azure-hdinsight

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业？

我目前正在开发一个项目，该项目使用JDK1.7进行编译，使用Cascading1.2(即将升级到2.1)创建和运行Hadoop作业，并使用Hadoop的Cloudera发行版(0.20.2-cdh3u3)。我正在研究如何修改我的级联/Hadoop作业以从MySQL数据库读取和写入所有数据。看起来SQOOP或许能够处理这个问题。然而，据我目前所见，关于如何在Java中执行此操作的信息或文档很少(我知道SQOOP主要用于从shell调用的批处理作业)——我拥有的Java示例followed没有为我工作。我已经尝试使用SQOOP1.4并将我的项目切换为使用JDK1.6，因为我认为这是必需的，

Hadoop SQOOP section java mysql cascading

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如，我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

时出 FileNotFoundException java hadoop apache mapreduce hbase cloudera-cdh

hadoop - 如何在单个 MapReduce 作业中实现多个 reducer

我有一个庞大的数据集，我需要对相同的数据执行不同的功能。我想要四个输出文件。由于四个操作不同，我可以使用四个partitioner和四个reducer来实现相同的操作吗？是否有可能或者我是否需要编写四个作业来执行此操作？请帮助我! 最佳答案第一种方法我认为您应该在一个独特的reduce方法中实现代码，并根据执行的过程发出n个键。例如:您实现A、B、C和D技术，然后，在您的映射器中您可以实现此(伪代码):dataA=ProcessA(key,value)context.write("A",dataA)dataB=ProcessB(k

何在 MapReduce section strong context hadoop hadoop2

java - Apache Crunch 管道如何生成 map reduce 作业？

我是Crunch/Cascading等Hadoop管道框架的新手。我想知道在这些框架的底部，它们是否生成原始的映射器和缩减器类，就像原始的MapReduce程序一样？从Crunch源代码中，我没有找到将管道转换为原始MapReduce类的代码。最佳答案您可以使用代码中的以下行可视化MapReduce计划紧缩创建。将在pipeline.dot中创建的DOT代码复制到graphviz中以查看计划。Stringdot=pipeline.getConfiguration().get("crunch.planner.dotfile");F

Apache Crunch section MapReduce pipeline java hadoop bigdata apache-crunch

hadoop - 如何从 Oozie 触发的流式 Map Reduce 作业输出 Hadoop EL 计数器？

我正在使用Oozie触发流式MapReduce作业，为此我想收集以下HadoopEL常量:MAP_IN:Hadoop映射器输入记录计数器名称。MAP_OUT:Hadoopmapper输出记录计数器名称。REDUCE_IN:Hadoopreducer输入记录计数器名称。REDUCE_OUT:Hadoopreducer输入记录计数器名称。我看到这些可以使用${hadoop:counters('mr-action')[RECORDS][REDUCE_OUT]}但是，我不知道如何让这些值通过STDOUT输出回屏幕，或者输出到我启动Oozie工作流的服务器上HDFS中的文件。我试过将这些值传递给

流式 hadoop section action oozie hadoop-streaming

276 277 278279280 281 282